New York Times | 2024-05-21 | 19:03:36

Черните кутии на изкуствения интелект току-що станаха малко по-малко мистериозни

Едно от по-странните и по-изнервящи неща за днешните водещи системи за изкуствен интелект е, че никой – даже хората, които ги построяват — в действителност знае по какъв начин работят системите.

Това е по този начин, тъй като огромните езикови модели, видът на ИИ. системите, които зареждат ChatGPT и други известни чатботове, не се програмират ред по ред от човешки инженери, както са стандартните компютърни стратегии.

Вместо това тези системи всъщност се учат сами, посредством усвояване на големи количества данни и идентифициране на модели и връзки в езика, след което потребление на това познание за предсказание на идващите думи в поредност.

Една последица от построяването на ИИ. системи по този метод е, че е мъчно да ги проектирате назад или да коригирате проблеми посредством идентифициране на съответни неточности в кода. Точно в този момент, в случай че консуматор напише „ Кой американски град има най-хубавата храна? “ и чатботът дава отговор с „ Токио “, няма действителен метод да разберем за какво моделът е направил тази неточност или за какво идващият човек, който пита, може да получи друг отговор.

по недомислен метод по време на взаимоотношение с мен и даже висши ръководители на Microsoft не можаха да ми кажат сигурно какво се е объркало.)

Неразгадаемостта на огромните езикови модели не е просто неспокойствие, а съществена причина някои откриватели боязън, че мощен ИИ. системи в последна сметка могат да се трансфорат в опасност за човечеството.

В края на краищата, в случай че не можем да разберем какво се случва вътре в тези модели, по какъв начин ще разберем дали те могат да бъдат употребявани за основаване нови биологични оръжия, разпространение на политическа агитация или писане на злотворен компютърен код за хакерски атаки? Ако мощният ИИ. системи стартират да не се подчиняват или да ни мамят, по какъв начин можем да ги спрем, в случай че не можем да разберем какво предизвиква това държание преди всичко?

За да се оправим с тези проблеми, дребна подполе на A.I. проучвания, известни като „ механистична интерпретируемост “, са прекарали години в опити да надникнат в вътрешностите на ИИ. езикови модели. Работата върви постепенно и напредъкът е еволюционен.

Също по този начин има възходяща опозиция против концепцията, че A.I. системите въобще съставляват огромен риск. Миналата седмица двама старши откриватели по сигурността в OpenAI, производителят на ChatGPT, напуснаха компанията заради спор с ръководителите по отношение на това дали компанията прави задоволително, с цел да направи продуктите си безвредни.

Картографиране на съзнанието на огромен езиков модел. “

Изследователите погледнаха вътре в един от ИИ на Anthropic. модели – Claude 3 Sonnet, версия на езиковия модел Claude 3 на компанията – и използваха техника, известна като „ образование по речник “, с цел да разкрият модели в това по какъв начин комбинациите от неврони, математическите единици вътре в ИИ. модел, бяха задействани, когато Клод беше подканен да приказва по избрани тематики. Те идентифицираха почти 10 милиона от тези модели, които назовават „ характерности “.

Те откриха, че да вземем за пример една функционалност е дейна, когато Клод е помолен да приказва за Сан Франциско. Други функционалности бяха дейни постоянно, когато се загатваха тематики като имунология или характерни научни термини, като химическия детайл литий. И някои функционалности бяха свързани с по-абстрактни понятия, като машинация или пристрастност към пола.

Те също откриха, че ръчното включване или изключване на избрани функционалности може да промени метода, по който ИИ. система се е държала или може да я накара даже да наруши личните си правила.

Например, те откриха, че в случай че принудят функционалност, обвързвана с концепцията за угодничество, да се задейства повече мощно, Клод би дал отговор с цветисти, несъразмерни похвали за потребителя, в това число в обстановки, в които ласкателството е несвоевременно.

Крис Ола, който управлява проучването за интерпретация на Anthropic екип, сподели в изявление, че тези открития могат да разрешат на A.I. фирмите да управляват своите модели по-ефективно.

„ Откриваме функционалности, които могат да хвърлят светлина върху опасенията по отношение на пристрастията, рисковете за сигурността и автономността “, сподели той. „ Чувствам се доста разчувствуван, че може да успеем да превърнем тези спорни въпроси, за които хората спорят, в неща, върху които в действителност можем да водим по-продуктивен дискурс. “

Други откриватели са разкрили сходни феномени в дребни и междинни езикови модели. Но екипът на Anthropic е измежду първите, които ползват тези техники към модел в цялостен размер.

Якоб Андреас, доцент по компютърни науки в M.I.T., който прегледа обобщение на Изследването на Anthropic го характеризира като насърчителен знак, че може да е допустима широкомащабна интерпретируемост.

„ По същия метод, по който разбирането на съществени неща за това по какъв начин работят хората ни оказа помощ да излекуваме заболявания, разбирането по какъв начин работят тези модели ще ни разреши да разпознаем по кое време нещата са на път да се объркат и ще ни разреши да изградим по-добри принадлежности за управлението им “, сподели той.

Mr. Олах, изследователският началник на Anthropic, предизвести, че до момента в който новите открития съставляват значим прогрес, A.I. интерпретируемостта към момента е надалеч от решен проблем.

За начало, сподели той, най-големият ИИ. моделите евентуално съдържат милиарди функционалности, представляващи разнообразни концепции - доста повече от към 10 милиона функционалности, които екипът на Anthropic твърди, че е разкрил. Намирането на всички тях би изисквало голямо количество изчислителна мощ и би било прекомерно скъпо за всички, с изключение на за най-богатия ИИ. компании да се опитат.

Дори в случай че откривателите трябваше да разпознават всяка функционалност в огромен ИИ. модел, те отново ще имат потребност от повече информация, с цел да схванат цялостната вътрешна работа на модела. Също по този начин няма гаранция, че A.I. фирмите биха подхванали дейности, с цел да създадат своите системи по-безопасни.

Все отново, сподели господин Ола, даже да отвори тези ИИ. черните кутии малко биха могли да разрешат на фирмите, регулаторите и необятната общност да се усещат по-уверени, че тези системи могат да бъдат следени.

„ Има доста други провокации пред нас, само че нещото, което изглеждаше най-страшно, към този момент не наподобява като спънка “, сподели той.

Източник: nytimes.com